智能论文笔记

BARTSmiles: Generative Masked Language Models for Molecular Representations

Gayane Chilingaryan , Hovhannes Tamoyan , Ani Tevosyan , Nelly Babayan , Lusine Khondkaryan , Karen Hambardzumyan , Zaven Navoyan , Hrant Khachatrian , Armen Aghajanyan

分类：机器学习

2022-11-29

We discover a robust self-supervised strategy tailored towards molecular representations for generative masked language models through a series of tailored, in-depth ablations. Using this pre-training strategy, we train BARTSmiles, a BART-like model with an order of magnitude more compute than previous self-supervised molecular representations. In-depth evaluations show that BARTSmiles consistently outperforms other self-supervised representations across classification, regression, and generation tasks setting a new state-of-the-art on 11 tasks. We then quantitatively show that when applied to the molecular domain, the BART objective learns representations that implicitly encode our downstream tasks of interest. For example, by selecting seven neurons from a frozen BARTSmiles, we can obtain a model having performance within two percentage points of the full fine-tuned model on task Clintox. Lastly, we show that standard attribution interpretability methods, when applied to BARTSmiles, highlight certain substructures that chemists use to explain specific properties of molecules. The code and the pretrained model are publicly available.

translated by 谷歌翻译

域泛化算法使用来自多个域的培训数据来学习概括到未经识别域的模型。虽然最近提出的基准证明大多数现有算法不优于简单的基线，但建立的评估方法未能暴露各种因素的影响，这有助于性能不佳。在本文中，我们提出了一个域泛化算法的评估框架，其允许将误差分解成组件捕获概念的不同方面。通过基于域不变表示学习的思想的算法的普遍性的启发，我们扩展了评估框架，以捕获在实现不变性时捕获各种类型的失败。我们表明，泛化误差的最大贡献者跨越方法，数据集，正则化强度甚至培训长度各不相同。我们遵守与学习域不变表示的策略相关的两个问题。在彩色的MNIST上，大多数域泛化算法失败，因为它们仅在训练域上达到域名不变性。在Camelyon-17上，域名不变性会降低看不见域的表示质量。我们假设专注于在丰富的代表之上调整分类器可以是有希望的方向。

translated by 谷歌翻译

传统的数据湖泊通过启用时间旅行，运行SQL查询，使用酸性交易摄入数据以及可视化PBABYTE尺度数据集在云存储中，为分析工作负载提供了关键的数据基础架构。它们使组织能够分解数据孤岛，解锁数据驱动的决策，提高运营效率并降低成本。但是，随着深度学习接管常见的分析工作流程，传统数据湖泊对诸如自然语言处理（NLP），音频处理，计算机视觉和涉及非尾巴数据集的应用程序的有用程度降低。本文介绍了Deep Lake，这是一个开源湖泊，用于在Activeloop开发的深度学习应用程序。 Deep Lake保持了一项关键区别的香草数据湖的好处：它以张量的形式存储复杂数据，例如图像，视频，注释以及表格数据，并将数据迅速流式传输到网络上（a ）张量查询语言，（b）浏览器可视化引擎或（c）不牺牲GPU利用率的深度学习框架。可以从Pytorch，Tensorflow，Jax，与许多MLOPS工具集成在一起的数据集。

translated by 谷歌翻译

为化疗中的许多重要任务收集标记数据是耗时的，需要昂贵的实验。近年来，机器学习已被用来使用大规模未标记的分子数据集学习分子的丰富表示，并转移知识，以解决有限数据集的更具挑战性的任务。变形AutoEncoders是已经提出用于进行化学性质预测和分子产生任务的转移的工具之一。在这项工作中，我们提出了一种简单的方法，可以通过在变形自身偏析者学习的表示中包含关于相关分子描述符的附加信息来改善机器学习模型的化学性质预测性能。我们验证了三个属性预测的方法询问。我们探讨了合并的描述符的数量，描述符和目标属性之间的相关性，数据集等的尺寸的影响。最后，我们显示了性能预测模型的性能与属性预测数据集之间的距离和更大的未标记之间的关系。 DataSet在表示空间中。

translated by 谷歌翻译